查看原文
其他

Gemini的公允评价

  我发现国内外对于Gemini评价分歧很大


  国内主要听一些专家 聊,觉得推的仓促,pro版本已经在Bard上推行,觉得不够惊艳!


    但是海外给了比较好的评价。最大的逻辑是它第一次实现了“原生”,多模态看到了曙光!为什么Gemini比 gpt4v小,但是它花了更多的时间?因为实现原生多模态就是耗时 耗钱,除此以外,在应用上高一个量级体验是应该的。


  Gemini用的传统路径 Auto-regressive model, 生成是decoder 多模态部分有encoder - decoder 大概用的这个:

  gpt4v 是个拼接模型!双模态的!
  两者差距:好比 拼接模型是一个人和另外一个人说话一样 总有意思传达不到位的地方 , 原生模型就是人之身的 大脑 身体 眼睛各个协调性很高。当然这要花更多时间和训练费用!
  因为Gemini采用了encoder-decoder的架构,一个多层的decoder,可以直接输出一些在文本空间能够对齐的token。多模态是原生一起从头训练的 而不想很多多模态是拼接而成!

    要关机了,Gemini的商用 可能没有那么快!它确实赶在圣诞节前给大家看一眼而已!但是现在bard底层还暂时不是1.0。后面b端 体验 大约一个月后能看到效果!
    它对于多模态 机器人 边缘端进步挺大
继续滑动看下一个

Gemini的公允评价

向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存